视觉任务的输出格式和相关内容差异很大,因此很难以相同的结构处理它们。一个主要障碍在于对象级别的视觉任务中的高维输出。在本文中,我们提出了一个以对象为中心的视觉框架OBJ2Seq。 OBJ2Seq将对象作为基本单元,并将大多数对象级的视觉任务视为对象的序列生成问题。因此,这些视觉任务可以分为两个步骤。首先识别给定类别的对象,然后为每个对象生成一个序列。输出序列的定义对于不同的任务有所不同,并且通过将这些序列与地面真相目标匹配来监督模型。 OBJ2SEQ能够灵活地确定输入类别以满足自定义要求,并可以轻松扩展到不同的视觉任务。在对MS Coco进行实验时,OBJ2SEQ在对象检测时可获得45.7%的AP,多标签分类的89.0%AP和人类姿势估计的65.0%AP。这些结果证明了其通常应用于不同视觉任务的潜力。代码已在以下网址提供:https://github.com/casia-iva-lab/obj2seq。
translated by 谷歌翻译
在本文中,我们提出了一个简单而通用的网络,该网络称为SEQTR,用于视觉接地任务,例如短语本地化,参考表达理解(REC)和分割(RES)。视觉接地的规范范例通常需要在设计网络体系结构和损失功能方面具有丰富的专业知识,从而使它们难以跨越跨任务进行推广。为了简化和统一建模,我们将视觉接地作为点预测问题在图像和文本输入上进行条件,其中边界框或二进制掩码表示为一系列离散坐标令牌。在此范式下,视觉接地任务是在我们的SEQTR网络中统一的,而没有特定于任务的分支或头部,例如RES的卷积蒙版解码器,这大大降低了多任务建模的复杂性。此外,SEQTR还具有简单的交叉渗透损失,共享所有任务的相同优化目标,从而进一步降低了部署手工制作的损失功能的复杂性。五个基准数据集的实验表明,所提出的SEQTR优于现有的最新技术(或与之相提并论),这证明了一种简单而通用的视觉接地方法确实是可行的。源代码可在https://github.com/sean-zhuh/seqtr上获得。
translated by 谷歌翻译
The mixture of Expert (MoE) parallelism is a recent advancement that scales up the model size with constant computational cost. MoE selects different sets of parameters (i.e., experts) for each incoming token, resulting in a sparsely-activated model. Despite several successful applications of MoE, its training efficiency degrades significantly as the number of experts increases. The routing stage in MoE relies on the efficiency of the All2All communication collective, which suffers from network congestion and has poor scalability. To mitigate these issues, we introduce SMILE, which exploits heterogeneous network bandwidth and splits a single-step routing into bi-level routing. Our experimental results show that the proposed method obtains a 2.5x speedup over Switch Transformer in terms of pretraining throughput on the Colossal Clean Crawled Corpus without losing any convergence speed.
translated by 谷歌翻译
从计算机视觉的频率的角度来看,以前的无监督域适应方法无法处理跨域问题。可以将不同域的图像或特征地图分解为低频组件和高频组件。本文提出了这样一个假设,即低频信息是更域的不变性,而高频信息包含与域相关的信息。因此,我们引入了一种名为低频模块(LFM)的方法,以提取域不变特征表示。 LFM由数字高斯低通滤波器构建。我们的方法易于实施,并且不引入额外的超参数。我们设计了两种有效的方法来利用LFM进行域的适应性,我们的方法与其他现有方法互补,并作为可以与这些方法结合使用的插件单元。实验结果表明,我们的LFM优于各种计算机视觉任务的最先进方法,包括图像分类和对象检测。
translated by 谷歌翻译
知识图的归纳链路预测旨在预测未见实体之间的缺失联系,而那些未在训练阶段显示的实体。大多数以前的作品都学习实体的特定实体嵌入,这些实体无法处理看不见的实体。最近的几种方法利用封闭子图来获得归纳能力。但是,所有这些作品仅在没有完整的邻近关系的情况下考虑子图的封闭部分,这导致了忽略部分邻近关系的问题,并且很难处理稀疏的子图。为了解决这个问题,我们提出了SNRI子图邻近关系Infomax,它足够从两个方面利用完整的相邻关系:节点特征的相邻关系特征和稀疏子图的相邻关系路径。为了进一步以全球方式建模邻近关系,我们对知识图进行创新的相互信息(MI)最大化。实验表明,SNRI在归纳链路预测任务上的大幅度优于现有的最新方法,并验证以全局方式探索完整的邻近关系的有效性,以表征节点特征和在稀疏子分类上的理由。
translated by 谷歌翻译
Quantum machine learning is a rapidly evolving field of research that could facilitate important applications for quantum computing and also significantly impact data-driven sciences. In our work, based on various arguments from complexity theory and physics, we demonstrate that a single Kerr mode can provide some "quantum enhancements" when dealing with kernel-based methods. Using kernel properties, neural tangent kernel theory, first-order perturbation theory of the Kerr non-linearity, and non-perturbative numerical simulations, we show that quantum enhancements could happen in terms of convergence time and generalization error. Furthermore, we make explicit indications on how higher-dimensional input data could be considered. Finally, we propose an experimental protocol, that we call \emph{quantum Kerr learning}, based on circuit QED.
translated by 谷歌翻译
Efficient use of the space in an elevator is very necessary for a service robot, due to the need for reducing the amount of time caused by waiting for the next elevator. To provide a solution for this, we propose a hybrid approach that combines reinforcement learning (RL) with voice interaction for robot navigation in the scene of entering the elevator. RL provides robots with a high exploration ability to find a new clear path to enter the elevator compared to traditional navigation methods such as Optimal Reciprocal Collision Avoidance (ORCA). The proposed method allows the robot to take an active clear path action towards the elevator whilst a crowd of people stands at the entrance of the elevator wherein there are still lots of space. This is done by embedding a clear path action (voice prompt) into the RL framework, and the proposed navigation policy helps the robot to finish tasks efficiently and safely. Our model approach provides a great improvement in the success rate and reward of entering the elevator compared to state-of-the-art navigation policies without active clear path operation.
translated by 谷歌翻译
具有周期性模型的本地随机梯度下降(SGD)平均(FEDAVG)是联合学习中的基础算法。该算法在多个工人上独立运行SGD,并定期平均所有工人的模型。然而,当本地SGD与许多工人一起运行时,周期性平均导致跨越工人的重大模型差异,使全局损失缓慢收敛。虽然最近的高级优化方法解决了专注于非IID设置的问题,但由于底层定期模型平均而仍存在模型差异问题。我们提出了一个部分模型平均框架,这些框架减轻了联合学习中的模型差异问题。部分平均鼓励本地模型在参数空间上保持彼此接近,并且它可以更有效地最小化全局损失。鉴于固定数量的迭代和大量工人(128),验证精度高达2.2%的验证精度高于周期性的完整平均值。
translated by 谷歌翻译
联合学习(FL)是一种有效的学习框架,可帮助由于隐私和监管限制无法与集中式服务器共享数据时,帮助分布式机器学习。 FL使用基于预定义体系结构的学习的最新进展。然而,考虑到客户端的数据对服务器和数据分布是不可相同的客户端,在集中设置中发现的预定义体系结构可能不是FL中所有客户端的最佳解决方案。在这项工作中受到这项挑战的动机,我们介绍了蜘蛛,这是一种旨在搜索用于联合学习的个性化神经结构的算法框架。蜘蛛是根据两个独特特征设计的:(1)交替地以通用的方式优化一个架构 - 均匀的全球模型(Supernet),一个架构 - 异构本地模型,由基于重量共享的正则化连接到全球模型(2通过新颖的神经结构搜索(NAS)方法实现架构异构本地模型,其可以使用对准确值的操作级别扰动来逐渐选择最佳子网。实验结果表明,蜘蛛优于其他最先进的个性化方法,搜索的个性化架构更加推理效率。
translated by 谷歌翻译
本文开发了一种停止线路辅助协同定位框架,用于连接的车辆,其创造性地利用了止动线的位置来实现通过车辆到车辆(V2V ) 沟通。首先,提出了用于第一停止车辆的自定位校正方案,其将停止线信息作为基准施加以校正GNSS / INS定位结果。然后,通过使用扩展的卡尔曼滤波器(EKF)与其他车辆的位置估计和车辆间距离测量的位置估计融合。以这种方式,第一站的益处延伸到整个VANET。这种合作惯性导航(CIN)框架可以大大提高VANET的定位性能。最后,北京的实验表明了拟议的停止线辅助合作框架的有效性。
translated by 谷歌翻译